16 research outputs found

    AIC, Cp and estimators of loss for elliptically symmetric distributions

    Full text link
    In this article, we develop a modern perspective on Akaike's Information Criterion and Mallows' Cp for model selection. Despite the diff erences in their respective motivation, they are equivalent in the special case of Gaussian linear regression. In this case they are also equivalent to a third criterion, an unbiased estimator of the quadratic prediction loss, derived from loss estimation theory. Our first contribution is to provide an explicit link between loss estimation and model selection through a new oracle inequality. We then show that the form of the unbiased estimator of the quadratic prediction loss under a Gaussian assumption still holds under a more general distributional assumption, the family of spherically symmetric distributions. One of the features of our results is that our criterion does not rely on the speci ficity of the distribution, but only on its spherical symmetry. Also this family of laws o ffers some dependence property between the observations, a case not often studied

    Estimation of the Weight Parameter with SAEM for Marked Point Processes Applied to Object Detection

    Get PDF
    International audienceWe consider the problem of estimating one of the parameters of a marked point process, namely the tradeoff parameter between the data and prior energy terms defining the probability density of the process. In previous work, the Stochastic Expectation-Maximization (SEM) algorithm was used. However, SEM is well known for having bad convergence properties, which might also slow down the estimation time. Therefore, in this work, we consider an alternative to SEM: the Stochastic Approximation EM algorithm, which makes an efficient use of all the data simulated. We compare both approaches on high resolution satellite images where the objective is to detect boats in a harbor.Nous traitons le problème de l'estimation du paramètre d'un processus ponctuel marqué réalisant le compromis entre attache aux données et à priori, dans la définition de la densité de probabilité du processus. Dans des travaux précédants, l'algorithme d'Espérance Maximisation Stochastique (SEM) était utilisé. Cependant, SEM est connu pour avoir de mauvaises propriétés de convergence, ce qui peut également allonger le temps de calcul. C'est pourquoi nous considérons ici une alternative à SEM : l'algorithme EM avec Approximation Stochastique (SAEM), qui fait bon usage de l'ensemble des données simulées. Nous comparons les deux approches sur des images satellitaires de haute résolution où l'objectif est de détecter des bateaux dans des ports

    Graph Diffusion & PCA Framework for Semi-supervised Learning

    Get PDF
    International audienceA novel framework called Graph Diffusion & PCA (GDPCA) is proposed in the context of semi-supervised learning on graph structured data. It combines a modified Principal Component Analysis with the classical supervised loss and Laplacian regularization, thus handling the case where the adjacency matrix is sparse and avoiding the curse of dimensionality. Our framework can be applied to non-graph datasets as well, such as images by constructing similarity graph. GDPCA improves node classification by enriching the local graph structure by node covariance. We demonstrate the performance of GDPCA in experiments on citation networks and images, and we show that GDPCA compares favourably with the best state-of-the-art algorithms and has significantly lower computational complexity

    Sélection de modèle : une approche décisionnelle

    No full text
    This manuscript addresses the problem of model selection, studied in the linear regression framework. The objective is to determine the best predictive model based on observed data, that is, the model realizing the best tradeoff between goodness of fit and complexity. Our main contribution consists in deriving model evaluation criteria based on tools from Decision Theory, in particular loss estimation. Such criteria rely on a distributional assumption larger than the classical Gaussian hypothesis with independent observations: the family of spherically symmetric distributions. This family of laws allows us to relax the independence assumption and thus brings robustness, since our criteria do not depend on the specific form of the distribution. We also propose a method for comparing model evaluation criteria through a Mean-Squared Error type measure. Our second contribution tackles the problem of constructing the models we compare. The conditions of models considered are obtained from sparse regularization methods, namely the Lasso and related methods. In particular, we studied the Minimax Concave Penalty (MCP), which keeps Lasso's selection while correcting its estimation bias. However, this penalty corresponds to a non differentiable and non- convex optimization problem. The generalization of subdifferentials with Clarke differentials allowed us to derive the optimality conditions d'optimalité and to propose a regularization path algorithm for MCP. Finally, we compare our propositions to the literature through a numerical study, in which we verify the quality of the selection. The results especially show that our criteria yield performances similar to the literature, and that frequently used criteria such as Cross Validation do not always result in good performances.Cette thèse s'articule autour de la problématique de la sélection de modèle, étudiée dans le contexte de la régression linéaire. L'objectif est de déterminer le meilleur modèle de prédiction à partir de données mesurées, c'est-à-dire le modèle réalisant le meilleur compromis entre attache aux données et complexité du modèle. La contribution principale consiste en la dérivation de critères d'évaluation de modèles basés sur des techniques de théorie de la décision, plus précisément l'estimation de coût. Ces critères reposent sur une hypothèse distributionnelle plus large que l'hypothèse classique gaussienne avec indépendance entre les observations : la famille des lois à symétrie sphérique. Cette famille nous permet à la fois de nous affranchir de l'hypothèse d'indépendance et d'ajouter une plus grande robustesse puisque nos critères ne dépendent pas de la forme spécifique de la distribution. Nous proposons également une méthode de comparaison des critères dérivés au travers d'une mesure de type Erreur quadratique (MSE), qui permet de déterminer si un critère d'évaluation de modèle est meilleur qu'un autre. La seconde contribution attaque le problème de la construction des différents modèles comparés. Les collections de modèles considérées sont celles issues des méthodes de régularisation parcimonieuses, de type Lasso. En particulier, nous nous sommes intéressés à la Pénalité Concave Minimax (MCP), qui garde la sélection du Lasso tout en corrigeant son biais d'estimation. Cette pénalité correspond cependant à un problème non différentiable et non convexe. La généralisation des outils habituels de sous-différentielles grâce aux différentielles de Clarke a permis de déterminer les conditions d'optimalité et de développer un algorithme de chemin de régularisation pour le MCP. Enfin, nous comparons nos propositions avec celles de la littérature au travers d'une étude numérique, dans laquelle nous vérifions la qualité de la sélection. Les résultats montrent notamment que nos critères obtiennent des performances comparables à ceux de la littérature, et que les critères les plus couramment utilisés en pratique (validation croisée) ne sont pas toujours parmi les plus performants

    Criteria for variable selection with dependence

    No full text
    Most theoretical tools for model selection rely on one main assumption: the independence of noise components. However, in many real regression examples this assumption is too strong and does not fit well the reality (see for instance the discussion on this issue in [1] and references therein). A way to take dependence into account is to model noise as a multivariate spherically symmetric random variable. This general framework includes the well-known multivariate Student and Kotz distributions. Our work consists in integrating this idea into model selection problems. The problem of model selection implies three steps, as discussed in [2]: (a) the definition of a way to explore models, (b) the estimation of parameters for each model, and (c) the evaluation of the models. If we consider the example of Lasso [3], the L1-penalization solves both step (a), with the regularization path algorithm [4], and step (b) simultaneously, while step (c) is usually performed with Mallows ’ Cp [5] or cross-validation [6]. We propose a new procedure for step (c) based on loss estimation. Loss estimation is a data-driven approach closely related to Stein’s Unbiased Risk Estimation (SURE) [7], and has been extended to spherically symmetric distributions (see for instance [8]). Our estimator of loss is of the following form

    Active set strategy for high-dimensional non-convex sparse optimization problems

    Get PDF
    International audienceThe use of non-convex sparse regularization has attracted much interest when estimating a very sparse model on high dimensional data. In this work we express the optimality conditions of the optimization problem for a large class of non-convex regularizers. From those conditions, we derive an efficient active set strategy that avoids the computing of unnecessary gradients. Numerical experiments on both generated and real life datasets show a clear gain in computational cost w.r.t. the state of the art when using our method to obtain very sparse solutions.L'utilisation de régularisations non-convexes a attiré beaucoup d'attention pour l'estimation de modèles parcimonieux en grandes dimensions. Dans ce travail, nous exprimons les conditions d'optimalité du problème d'optimisation correspondant pour une large classe de régularisations non convexes. Nous développons un stratégie de type "ensemble actif" efficace à partir de ces conditions, évitant ainsi des calculs de gradients inutiles. Une étude numérique sur données générées et sur données réelles montrent clairement l'apport en temps de calcul de notre méthode par rapport à celles de l'état de l'art pour obtenir des solutions très parcimonieuses

    Large Scale Sparse Optimization for Object Detection in High Resolution Images

    Get PDF
    International audienceIn this work, we address the problem of detecting objects in images by expressing the image as convolutions between activation matrices and dictionary atoms. The activation matrices are estimated through sparse optimization and correspond to the position of the objects. In particular, we propose an efficient algorithm based on an active set strategy that is easily scalable and can be computed in parallel. We apply it to a toy image and a satellite image where the aim is to detect all the boats in a harbor. These results show the benefit of using nonconvex penalties, such as the log-sum penalty, over the convex l1 penalty.Nous traitons dans ces travaux le problème de la détection d'objets dans des images en exprimant l'image comme convolutios entre des matrices d'activation et des atomes de dictionnaire. Les matrices d'activation sont estimées par optimisation parcimonieuse et correspondent à la position des objets. En particulier, nous proposons un algorithme efficace basé sur une stratégie d'ensemble actif qui permet le passage à l'échelle et peut être calculé en parallèle. Nous l'appliquons sur une image jouet, et sur une image satellitaire où l'objectif est de détecter tous les bateaux d'un port. Les résultats montrent l'avantage de l'utilisation de pénalités non-convexes, comme la pénalité de somme de log, par rapport à la pénalité convexe l1

    Zoetrope Genetic Programming for Regression

    No full text
    International audienceThe Zoetrope Genetic Programming (ZGP) algorithm is based on an original representation for mathematical expressions, targeting evolutionary symbolic regression. The zoetropic representation uses repeated fusion operations between partial expressions, starting from the terminal set. Repeated fusions within an individual gradually generate more complex expressions, ending up in what can be viewed as new features. These features are then linearly combined to best fit the training data. ZGP individuals then undergo specific crossover and mutation operators, and selection takes place between parents and offspring. ZGP is validated using a large number of public domain regression datasets, and compared to other symbolic regression algorithms, as well as to traditional machine learning algorithms. ZGP reaches state-of-theart performance with respect to both types of algorithms, and demonstrates a low computational time compared to other symbolic regression approaches
    corecore